昨天講到強化式學習,今天來介紹「深度」強化式學習。深度強化式學習非常的好懂就是深度學習+強化學習(忘記深度學習的可以回去第一天複習喔!)
也就是說深度強化式學習使用了神經網絡的技術,而神經網路的強項就是在於特徵擷取。因為強化式學習在環境所做的互動可能千奇百種,若有深度學習的幫助就可以提供更好的結果。因此要說深度學習跟強化式學習是相輔相成一點也不為過。
深度強化式學習在很多地方都有他的影子,今天介紹的是棋盤類遊戲,AlphaGo。那他是怎麼運作的呢?來講講最簡單的三大步驟
1.AlphaGo先收集大量的專業棋手的棋譜(包括許多圍棋大師的對局,這些棋譜是用來教導AlphaGo基本的圍棋規則和策略)
2.使用很多網路(神經網路、價值網路、策略網路)來決定下一步的下棋位置
3.使用強化式學習不斷進行互動(包括自我對弈),並從回饋中修整以增加獲勝率。可是研究人員希望可以發展出一套從零開始學習的能力,而有了AlphaGo Zero的誕生。
今日總複習:AlphaGo收集專業棋譜,使用多個神經網絡來決定下一步的棋步,以及透過強化學習不斷修正策略。而AlphaGo Zero則實現了從零開始學習的能力。深度學習和強化學習相輔相成,使得機器能夠在複雜環境中學習和表現出色。
補充影片:Alpha Go用什麼算法擊敗李世乭?
https://www.youtube.com/watch?v=jBTm2xsQgW0